{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "d0db92c1-c2aa-4a63-9837-0c80850fa554",
   "metadata": {},
   "source": [
    "物联网与大数据第六章作业   \n",
    "姚龙飞"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "407e840e-94b7-4e62-8a1d-4020e89ab124",
   "metadata": {},
   "source": [
    "### 2.考虑表 6-22 中显示的数据集。\n",
    "\n",
    "表 6-22 购物篮事务的例子\n",
    "\n",
    "| 顾客ID | 事务ID | 购买项       |\n",
    "|--------|--------|--------------|\n",
    "| 1      | 0001   | (a,d,e)      |\n",
    "| 1      | 0024   | (a,b,c,e)    |\n",
    "| 2      | 0012   | (a,b,d,e)    |\n",
    "| 2      | 0031   | (a,c,d,e)    |\n",
    "| 3      | 0015   | (b,c,e)      |\n",
    "| 3      | 0022   | (b,d,e)      |\n",
    "| 4      | 0029   | (c,d)        |\n",
    "| 4      | 0040   | (a,b,c)      |\n",
    "| 5      | 0033   | (a,d,e)      |\n",
    "| 5      | 0038   | (a,b,e)      |\n",
    "\n",
    "\n",
    "(a) 将每个事务 ID 视为一个购物篮，计算项集(e),(b, d)和(b, d, e)的支持度。\n",
    "\n",
    "(b) 使用(a)的计算结果，计算关联规则(b, d)→(e)和(e)→(b, d)的置信度。置信度是对称的度量吗？\n",
    "\n",
    "(c) 将每个顾客 ID 作为一个购物篮，重复(a)。应当将每个项看作一个二元变量（如果一个项在顾客的购买事务中至少出现了一次，则为1；否则，为0）。\n",
    "\n",
    "(d) 使用(c)的计算结果，计算关联规则(b,d)→(e)和(e)→(b, d)的置信度。\n",
    "\n",
    "(e) 假定 s1 和 c1 是将每个事务 ID 作为一个购物篮时关联规则 r 的支持度和置信度，而 s2 和 c2 是将每个顾客 ID 作为一个购物篮时关联规则 r 的支持度和置信度。讨论 s1 和 s2 或 c1 和 c2 之间是否存在某种关系？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7c52f190-0639-4f9f-a3ab-cc51783c7e7e",
   "metadata": {},
   "source": [
    "答：\n",
    "1. (a) 支持度计算\n",
    "\n",
    "首先，总事务数为 10。\n",
    "\n",
    "- 项集  $\\{ e\\}$  出现的次数：7 次。\n",
    "  - 支持度 =  $ \\frac{7}{10} \\times 100\\% = 70\\% $ \n",
    "\n",
    "- 项集  $\\{ b,d\\}$  出现的次数：2 次。\n",
    "  - 支持度 =  $ \\frac{2}{10} \\times 100\\% = 20\\% $ \n",
    "\n",
    "- 项集  $\\{ b,d,e\\}$  出现的次数：2 次。\n",
    "  - 支持度 =  $ \\frac{2}{10} \\times 100\\% = 20\\% $ \n",
    "\n",
    "2. (b) 置信度计算\n",
    "\n",
    "- 关联规则  $\\{ b,d\\} \\to \\{ e\\}$  的置信度 =  $ \\frac{2}{2} \\times 100\\% = 100\\% $ \n",
    "  - 同时包含  $\\{ b,d\\}$  和  $\\{ e\\}$  的事务数为 2，包含  $\\{ b,d\\}$  的事务数为 2\n",
    "\n",
    "- 关联规则  $\\{ e\\} \\to \\{ b,d\\}$  的置信度 =  $ \\frac{2}{7} \\times 100\\% \\approx 28.57\\% $ \n",
    "  - 同时包含  $\\{ e\\}$  和  $\\{ b,d\\}$  的事务数为 2，包含  $\\{ e\\}$  的事务数为 7\n",
    "\n",
    "置信度不是对称的度量。\n",
    "\n",
    "3. (c) 顾客 ID 作为购物篮的支持度计算\n",
    "\n",
    "每个顾客 ID 作为一个购物篮时：\n",
    "- 总顾客数为 8。\n",
    "\n",
    "- 项集  $\\{ e\\}$  出现的次数：6 次。\n",
    "  - 支持度 =  $ \\frac{6}{8} \\times 100\\% = 75\\% $ \n",
    "\n",
    "- 项集  $\\{ b,d\\}$  出现的次数：2 次。\n",
    "  - 支持度 =  $ \\frac{2}{8} \\times 100\\% = 25\\% $ \n",
    "\n",
    "- 项集  $\\{ b,d,e\\}$  出现的次数：2 次。\n",
    "  - 支持度 =  $ \\frac{2}{8} \\times 100\\% = 25\\% $ \n",
    "\n",
    "4. (d) 顾客 ID 作为购物篮的置信度计算\n",
    "\n",
    "- 关联规则  $\\{ b,d\\} \\to \\{ e\\}$  的置信度 =  $ \\frac{2}{2} \\times 100\\% = 100\\% $ \n",
    "  - 同时包含  $\\{ b,d\\}$  和  $\\{ e\\}$  的顾客数为 2，包含  $\\{ b,d\\}$  的顾客数为 2\n",
    "\n",
    "- 关联规则  $\\{ e\\} \\to \\{ b,d\\}$  的置信度 =  $ \\frac{2}{6} \\times 100\\% \\approx 33.33\\% $ \n",
    "  - 同时包含  $\\{ e\\}$  和  $\\{ b,d\\}$  的顾客数为 2，包含  $\\{ e\\}$  的顾客数为 6\n",
    "\n",
    "5. (e) 支持度和置信度的关系讨论\n",
    "\n",
    "将每个事务 ID 作为购物篮时的支持度  $S_1$  和将每个顾客 ID 作为购物篮时的支持度  $S_2$  之间没有直接的固定关系。在这个例子中，项集  $\\{ e\\}$  的支持度从 70% 变为 75%，项集  $\\{ b,d\\}$  的支持度从 20% 变为 25%，变化不具有一致性。\n",
    "\n",
    "对于置信度  $C_1$  和  $C_2$ ，也没有必然的关系。它们的值取决于特定项集在不同分组方式下的出现情况。在这个例子中，关联规则  $\\{ b,d\\} \\to \\{ e\\}$  的置信度都是 100%，但  $\\{ e\\} \\to \\{ b,d\\}$  的置信度从约 28.57% 变为约 33.33%，变化不规律。\n",
    "\n",
    "综上所述， $S_1$  和  $S_2$ 、 $C_1$  和  $C_2$  之间没有明确的固定关系，取决于具体的数据分布和项集组合情况。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "63d6dbb4-95a9-4b21-9530-7be567a1d048",
   "metadata": {},
   "source": [
    "### 6.对于下列每种度量，判断它是单调的、反单调的或非单调的（即既不是单调的，也不是反单调的）。\n",
    "\n",
    "例如：支持度  $ s = \\frac{\\sigma(X)}{|T|} $  是反单调的，因为只要  $ X \\subset Y $ ，就有  $ s(X) \\geqslant s(Y) $ 。\n",
    "\n",
    "(a) 特征规则\n",
    "\n",
    "特征规则是形如  $ \\{p\\} \\rightarrow \\{q_1, q_2, \\cdots, q_n\\} $  的规则，其中规则的前件只有一个项。一个大小为  $ k $  的项集能够产生  $ k $  个特征规则。令  $ \\zeta $  是由给定项集产生的所有特征规则的最小置信度：\n",
    "\n",
    "\n",
    " $$ \\zeta(\\{p_1, p_2, \\cdots, p_k\\}) = \\min\\left[c(\\{p_1\\} \\rightarrow \\{p_2, p_3, \\cdots, p_k\\}), \\cdots, c(\\{p_k\\} \\rightarrow \\{p_1, p_3, \\cdots, p_{k-1}\\})\\right] $$ \n",
    "\n",
    " $ \\zeta $  是单调的、反单调的或非单调的？\n",
    "\n",
    "(b) 区分规则\n",
    "\n",
    "区分规则是形如  $ \\{p_1, p_2, \\cdots, p_n\\} \\rightarrow \\{q\\} $  的规则，其中规则的后件只有一个项。一个大小为  $ k $  的项集能够产生  $ k $  个区分规则。令  $ \\eta $  是由给定项集产生的所有区分规则的最小置信度：\n",
    "\n",
    "\n",
    " $$ \\eta(\\{p_1, p_2, \\cdots, p_k\\}) = \\min\\left[c(\\{p_2, p_3, \\cdots, p_k\\} \\rightarrow \\{p_1\\}), \\cdots, c(\\{p_1, p_2, \\cdots, p_{k-1}\\} \\rightarrow \\{p_k\\})\\right] $$ \n",
    "\n",
    " $ \\eta $  是单调的、反单调的或非单调的？\n",
    "\n",
    "(c) 最大值函数分析\n",
    "\n",
    "将最小值函数改为最大值函数，重做(a)和(b)的分析。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "b2c851af-98f4-47ed-87ef-819b54ca5422",
   "metadata": {},
   "source": [
    "答：\n",
    "- （a）判断  $\\xi$  的单调性\n",
    "- 反例法\n",
    "- 考虑项集  $X = \\{a, b\\}$  和  $Y = \\{a, b, c\\}$ 。\n",
    "- 对于  $X$ ，特征规则及其置信度为：\n",
    "  -  $\\{a\\} \\rightarrow \\{b\\}$ ：设其置信度为  $c_1$ 。\n",
    "- 对于  $Y$ ，特征规则及其置信度为：\n",
    "  -  $\\{a\\} \\rightarrow \\{b, c\\}$ ：设其置信度为  $c_2$ 。\n",
    "  -  $\\{b\\} \\rightarrow \\{a, c\\}$ ：设其置信度为  $c_3$ 。\n",
    "  -  $\\{c\\} \\rightarrow \\{a, b\\}$ ：设其置信度为  $c_4$ 。\n",
    "- 显然， $c_1$  不一定大于或等于  $c_2, c_3, c_4$  中的最小值。例如，如果  $c_1 = 0.8$ ，而  $c_2 = 0.6, c_3 = 0.7, c_4 = 0.5$ ，则  $\\xi(X) > \\xi(Y)$ 。\n",
    "- 结论\n",
    "-  $\\xi$  是非单调的。\n",
    "\n",
    "- （b)判断  $\\eta$  的单调性\n",
    "- 反例法\n",
    "- 考虑项集  $X = \\{a, b\\}$  和  $Y = \\{a, b, c\\}$ 。\n",
    "- 对于  $X$ ，区分规则及其置信度为：\n",
    "  -  $\\{a, b\\} \\rightarrow \\{a\\}$ ：设其置信度为  $d_1$ 。\n",
    "  -  $\\{a, b\\} \\rightarrow \\{b\\}$ ：设其置信度为  $d_2$ 。\n",
    "- 对于  $Y$ ，区分规则及其置信度为：\n",
    "  -  $\\{a, b, c\\} \\rightarrow \\{a\\}$ ：设其置信度为  $d_3$ 。\n",
    "  -  $\\{a, b, c\\} \\rightarrow \\{b\\}$ ：设其置信度为  $d_4$ 。\n",
    "  -  $\\{a, b, c\\} \\rightarrow \\{c\\}$ ：设其置信度为  $d_5$ 。\n",
    "- 显然， $d_1$  和  $d_2$  不一定大于或等于  $d_3, d_4, d_5$  中的最小值。例如，如果  $d_1 = 0.8$ ，而  $d_3 = 0.6, d_4 = 0.7, d_5 = 0.5$ ，则  $\\eta(X) > \\eta(Y)$ 。\n",
    "- 结论\n",
    "-  $\\eta$  是非单调的。\n",
    "\n",
    "- (c)将最小值函数改为最大值函数，重做 (a) 和 (b) 的分析\n",
    "- (a) 部分重分析\n",
    "- 定义  $\\xi$  为最大值函数：\n",
    "  \n",
    " $$\n",
    "  \\xi(\\{p_1, p_2, \\ldots, p_k\\}) = \\max[c(\\{p_1\\} \\rightarrow \\{p_2, p_3, \\ldots, p_k\\}), \\ldots, c(\\{p_k\\} \\rightarrow \\{p_1, p_3, \\ldots, p_{k-1}\\})]\n",
    "  $$ \n",
    "- 判断  $\\xi$  的单调性\n",
    "- 反例法\n",
    "- 考虑项集  $X = \\{a, b\\}$  和  $Y = \\{a, b, c\\}$ 。\n",
    "- 对于  $X$ ，特征规则及其置信度为：\n",
    "  -  $\\{a\\} \\rightarrow \\{b\\}$ ：设其置信度为  $c_1$ 。\n",
    "- 对于  $Y$ ，特征规则及其置信度为：\n",
    "  -  $\\{a\\} \\rightarrow \\{b, c\\}$ ：设其置信度为  $c_2$ 。\n",
    "  -  $\\{b\\} \\rightarrow \\{a, c\\}$ ：设其置信度为  $c_3$ 。\n",
    "  -  $\\{c\\} \\rightarrow \\{a, b\\}$ ：设其置信度为  $c_4$ 。\n",
    "- 显然， $c_1$  不一定小于或等于  $c_2, c_3, c_4$  中的最大值。例如，如果  $c_1 = 0.8$ ，而  $c_2 = 0.6, c_3 = 0.7, c_4 = 0.9$ ，则  $\\xi(X) < \\xi(Y)$ 。\n",
    "- 结论\n",
    "-  $\\xi$  是非单调的。\n",
    "\n",
    "- (b) 部分重分析\n",
    "- 定义  $\\eta$  为最大值函数：\n",
    "  \n",
    " $$\n",
    "  \\eta(\\{p_1, p_2, \\ldots, p_k\\}) = \\max[c(\\{p_2, p_3, \\ldots, p_k\\} \\rightarrow \\{p_1\\}), \\ldots, c(\\{p_1, p_2, \\ldots, p_{k-1}\\} \\rightarrow \\{p_k\\})]\n",
    "  $$ \n",
    "- 判断  $\\eta$  的单调性\n",
    "- 反例法\n",
    "- 考虑项集  $X = \\{a, b\\}$  和  $Y = \\{a, b, c\\}$ 。\n",
    "- 对于  $X$ ，区分规则及其置信度为：\n",
    "  -  $\\{a, b\\} \\rightarrow \\{a\\}$ ：设其置信度为  $d_1$ 。\n",
    "  -  $\\{a, b\\} \\rightarrow \\{b\\}$ ：设其置信度为  $d_2$ 。\n",
    "- 对于  $Y$ ，区分规则及其置信度为：\n",
    "  -  $\\{a, b, c\\} \\rightarrow \\{a\\}$ ：设其置信度为  $d_3$ 。\n",
    "  -  $\\{a, b, c\\} \\rightarrow \\{b\\}$ ：设其置信度为  $d_4$ 。\n",
    "  -  $\\{a, b, c\\} \\rightarrow \\{c\\}$ ：设其置信度为  $d_5$ 。\n",
    "- 显然， $d_1$  和  $d_2$  不一定小于或等于  $d_3, d_4, d_5$  中的最大值。例如，如果  $d_1 = 0.8$ ，而  $d_3 = 0.6, d_4 = 0.7, d_5 = 0.9$ ，则  $\\eta(X) < \\eta(Y)$ 。\n",
    "- 结论\n",
    "-  $\\eta$  是非单调的。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "d59d8208-53d8-4c5c-811b-f87546133067",
   "metadata": {},
   "source": [
    "### 6.考虑表 6-23 中显示的购物篮事务。\n",
    "\n",
    "表 6-23 购物篮事务\n",
    "\n",
    "| 事务ID | 购买项                           |\n",
    "|--------|----------------------------------|\n",
    "| 1      | {牛奶, 啤酒, 尿布}               |\n",
    "| 2      | {面包, 黄油, 牛奶}               |\n",
    "| 3      | {牛奶, 尿布, 饼干}               |\n",
    "| 4      | {面包, 黄油, 饼干}               |\n",
    "| 5      | {啤酒, 饼干, 尿布}               |\n",
    "| 6      | {牛奶, 尿布, 面包, 黄油}         |\n",
    "| 7      | {面包, 黄油, 尿布}               |\n",
    "| 8      | {啤酒, 尿布}                     |\n",
    "| 9      | {牛奶, 尿布, 面包, 黄油}         |\n",
    "| 10     | {啤酒, 饼干}                     |\n",
    "\n",
    "(a) 从这些数据中，能够提取出的关联规则的最大数量是多少（包括零支持度的规则）？\n",
    "\n",
    "(b) 能够提取的频繁项集的最大长度是多少（假定最小支持度 > 0）？\n",
    "\n",
    "(c) 写出从该数据集中能够提取的 3-项集的最大数量的表达式。\n",
    "\n",
    "(d) 找出一个具有最大支持度的项集（长度为 2 或更大）。\n",
    "\n",
    "(e) 找出一对项 a 和 b，使得规则  $\\{a\\} \\rightarrow \\{b\\}$  和  $\\{b\\} \\rightarrow \\{a\\}$  具有相同的置信度。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "17ba1166-bb6e-4799-b39c-398a9244f7b4",
   "metadata": {},
   "source": [
    "答：\n",
    "(a) 对于给定的购物篮事务，每一项都有出现和不出现两种可能，共有 6 种不同的项（牛奶、啤酒、尿布、面包、黄油、饼干）。那么关联规则的最大数量为  $2^6 - 1 = 63$  个。这是因为每种项都可以选择包含或不包含，总共有  $2^6$  种组合，但要减去空集这种情况，所以是  $2^6 - 1$ 。\n",
    "\n",
    "(b) 由于事务中最多包含 4 种商品，所以在假定最小支持度>0的情况下，能够提取的频繁项集的最大长度是 4。\n",
    "\n",
    "(c) 从该数据集中提取的 3-项集的最大数量的表达式为  $C_6^3 = 20$ ，即从 6 种不同的项中选择 3 种的组合数。\n",
    "\n",
    "(d) 首先，计算各项集的支持度。\n",
    "- “牛奶，尿布”出现 6 次，支持度为  $ \\frac{6}{10} = 0.6 $ ；\n",
    "- “牛奶，面包”出现 3 次，支持度为  $ \\frac{3}{10} = 0.3 $ ；\n",
    "- “牛奶，黄油”出现 3 次，支持度为  $ \\frac{3}{10} = 0.3 $ ；\n",
    "- “啤酒，尿布”出现 3 次，支持度为  $ \\frac{3}{10} = 0.3 $ ；\n",
    "- “面包，黄油”出现 5 次，支持度为  $ \\frac{5}{10} = 0.5 $ ；\n",
    "- “面包，尿布”出现 4 次，支持度为  $ \\frac{4}{10} = 0.4 $ ；\n",
    "- “黄油，尿布”出现 4 次，支持度为  $ \\frac{4}{10} = 0.4 $ 。\n",
    "具有最大支持度（长度为 2 或更大）的项集是“牛奶，尿布”，其支持度为 0.6。\n",
    "\n",
    "(e) \n",
    "- 规则“{牛奶} → {面包}”的置信度为同时包含牛奶和面包的事务数除以包含牛奶的事务数，即  $ \\frac{3}{6} = 0.5 $ 。\n",
    "- 规则“{面包} → {牛奶}”的置信度为同时包含牛奶和面包的事务数除以包含面包的事务数，即  $ \\frac{3}{5} = 0.6 $ ，二者置信度不同。\n",
    "再看“牛奶，尿布”和“尿布，牛奶”。\n",
    "- 规则“{牛奶} → {尿布}”的置信度为  $ \\frac{6}{6} = 1 $ 。\n",
    "- 规则“{尿布} → {牛奶}”的置信度为  $ \\frac{6}{7} \\approx 0.86 $ ，二者置信度不同。\n",
    "以此类推，可以发现“面包，黄油”这一对项，规则“{面包} → {黄油}”的置信度为  $ \\frac{5}{5} = 1 $ ，规则“{黄油} → {面包}”的置信度为  $ \\frac{5}{5} = 1 $ ，二者置信度相同。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "847dfc91-873d-4146-a5ca-03f9d1a70b82",
   "metadata": {},
   "source": [
    "### 8. Apriori算法使用产生-计数的策略找出频繁项集。通过合并一对大小为k的频繁项集得到一个大小为k+1的候选项集（称作候选产生步骤）。在候选项集剪枝步骤中，如果一个候选项集的任何一个子集是不频繁的，则该候选项集将被丢弃。假定将Apriori算法用于表6-24所示数据集，最小支持度为30%，即任何一个项集在少于3个事务中出现就被认为是非频繁的。\n",
    "\n",
    "表 6-24 购物篮事务的例子\n",
    "\n",
    "| 事务ID | 购买项         |\n",
    "|--------|----------------|\n",
    "| 1      | (a, b, d, e)   |\n",
    "| 2      | (b, c, d)      |\n",
    "| 3      | (a, b, d, e)   |\n",
    "| 4      | (a, c, d, e)   |\n",
    "| 5      | (b, c, d, e)   |\n",
    "| 6      | (b, d, e)      |\n",
    "| 7      | (c, d)         |\n",
    "| 8      | (a, b, c)      |\n",
    "| 9      | (a, d, e)      |\n",
    "| 10     | (b, d)         |\n",
    "\n",
    "(a) 画出表示表 6-24 所示数据集的项集格。用下面的字母标记格中每个结点。\n",
    "- **N**：如果该项集被 Apriori 算法认为不是候选项集。一个项集不是候选项集有两种可能的原因：它没有在候选项集产生步骤产生，或它在候选项集产生步骤产生，但是由于它的一个子集是非频繁的而在候选项集剪枝步骤被丢掉。\n",
    "- **F**：如果该候选项集被 Apriori 算法认为是频繁的。\n",
    "- **I**：如果经过支持度计数后，该候选项集被发现是非频繁的。\n",
    "\n",
    "(b) 频繁项集的百分比是多少？（考虑格中所有的项集）\n",
    "\n",
    "(c) 对于该数据集，Apriori 算法的剪枝率是多少？（剪枝率定义为由于如下原因不认为是候选的项集所占的百分比：在候选项集产生时未被产生，或在候选剪枝步骤被丢掉。）\n",
    "\n",
    "(d) 假警告率是多少？（假警告率是指经过支持度计算后被发现是非频繁的候选项集所占的百分比。）"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "4f254b40-00fd-4213-bf85-fa8068f2ae32",
   "metadata": {},
   "source": [
    "(a) \n",
    "\n",
    "单个元素的项集：\n",
    "- {a} 出现 5 次\n",
    "- {b} 出现 7 次\n",
    "- {c} 出现 4 次\n",
    "- {d} 出现 8 次\n",
    "- {e} 出现 6 次\n",
    "\n",
    "因为最小支持度为 30%，即至少出现 3 次才算频繁。所以，单个元素的频繁项集为：{a}、{b}、{d}、{e}，标记为 **F**。{c}标记为 **I**。\n",
    "\n",
    "两个元素的项集：\n",
    "- {a,b} 出现 3 次 ，标记为 **F**\n",
    "- {a,c} 出现 1 次 ，标记为 **I**\n",
    "- {a,d} 出现 5 次 ，标记为 **F**\n",
    "- {a,e} 出现 3 次 ，标记为 **F**\n",
    "- {b,c} 出现 2 次 ，标记为 **I**\n",
    "- {b,d} 出现 6 次 ，标记为 **F**\n",
    "- {b,e} 出现 5 次 ，标记为 **F**\n",
    "- {c,d} 出现 3 次 ，标记为 **F**\n",
    "- {c,e} 出现 2 次 ，标记为 **I**\n",
    "- {d,e} 出现 5 次 ，标记为 **F**\n",
    "\n",
    "三个元素的项集：\n",
    "- {a,b,d} 出现 3 次 ，标记为 **F**\n",
    "- {a,b,e} 出现 2 次 ，标记为 **I**\n",
    "- {a,d,e} 出现 3 次 ，标记为 **F**\n",
    "- {b,d,e} 出现 4 次 ，标记为 **F**\n",
    "- {c,d,e} 出现 2 次 ，标记为 **I**\n",
    "\n",
    "四个元素的项集：\n",
    "- {a,b,d,e} 出现 2 次 ，标记为 **I**\n",
    "\n",
    "项集格如下：\n",
    "\n",
    "| 项集         | 标记 |\n",
    "|--------------|------|\n",
    "| {a}          | F    |\n",
    "| {b}          | F    |\n",
    "| {c}          | I    |\n",
    "| {d}          | F    |\n",
    "| {e}          | F    |\n",
    "| {a,b}        | F    |\n",
    "| {a,c}        | I    |\n",
    "| {a,d}        | F    |\n",
    "| {a,e}        | F    |\n",
    "| {b,c}        | I    |\n",
    "| {b,d}        | F    |\n",
    "| {b,e}        | F    |\n",
    "| {c,d}        | F    |\n",
    "| {c,e}        | I    |\n",
    "| {d,e}        | F    |\n",
    "| {a,b,d}      | F    |\n",
    "| {a,b,e}      | I    |\n",
    "| {a,d,e}      | F    |\n",
    "| {b,d,e}      | F    |\n",
    "| {c,d,e}      | I    |\n",
    "| {a,b,d,e}    | I    |\n",
    "\n",
    "(b) 频繁项集的数量为 16 个，总项集数量为 26 个。频繁项集的百分比 =  $ \\frac{16}{26} \\times 100\\% \\approx 61.54\\% $ 。\n",
    "\n",
    "(c) 剪枝的项集数量为 10 个，总项集数量为 26 个。剪枝率 =  $ \\frac{10}{26} \\times 100\\% \\approx 38.46\\% $ 。\n",
    "\n",
    "(d) 假警告的项集数量为 10 个，总候选项集数量为 16 个。假警告率 =  $ \\frac{10}{16} \\times 100\\% = 62.5\\% $ 。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "bfcca48d-5e69-41d6-951d-e2d75e6244a9",
   "metadata": {},
   "source": [
    "### 10.考虑下面的候选 3-项集的集合: {1,2,3}, {1,2,6}, {1,3,4}, {2,3,4}, {2,4,5}, {3,4,6}, {4,5,6}\n",
    "\n",
    "(a) 构造以上候选 3-项集的 Hash 树。假定 Hash 树使用这样一个 Hash 函数：所有的奇数项都被散列到结点的左子女，所有偶数项被散列到右子女。一个候选 k-项集按如下方法插入到 Hash 树中：散列候选项集中的每个相继项，然后再按照散列值到相应的分支。一旦到达叶结点，候选项集将按照下面的条件插入。\n",
    "\n",
    "- 条件 1: 如果该叶结点的深度等于 k（假定根结点的深度为 0）, 则不管该结点已经存储了多少个项集，将该候选插入该结点。\n",
    "- 条件 2: 如果该叶结点的深度小于 k, 则只要该结点存储的项集数不超过 maxsize, 就把它插入到该叶结点。这里，假定 maxsize 为 2。\n",
    "- 条件 3: 如果该叶结点的深度小于 k 且该结点已存储的项集数量等于 maxsize, 则这个叶结点转变为内部结点，并创建新的叶结点作为老的叶结点的子女。先前老叶结点中存放的候选项集按照散列值分布到其子女中。新的候选项集也按照散列值存储到相应的叶结点。\n",
    "\n",
    "(b) 候选 Hash 树中共有多少个叶结点、多少个内部结点?\n",
    "\n",
    "(c) 考虑一个包含项集 {1,2,3,5,6} 的事务。使用 (a) 所创建的 Hash 树，则该事务要检查哪些叶结点？该事务包含哪些候选 3-项集？\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "42e0197c-d341-4bdd-b071-d5db8c1b3d37",
   "metadata": {},
   "source": [
    "答：\n",
    "（a）\n",
    "首先创建根节点。\n",
    "插入集合{1,2,3}：\n",
    "\n",
    "- 1 为奇数，散列到左子女。\n",
    "- 2 为偶数，散列到右子女。\n",
    "- 3 为奇数，散列到左子女，由于叶节点深度为 1 小于 3，且此时叶节点无其他项集，将其插入。\n",
    "\n",
    "插入集合{1,2,6}：\n",
    "\n",
    "- 1 到左子女。\n",
    "- 2 到右子女。\n",
    "- 6 到右子女，由于叶节点深度小于 3 且无其他项集，将其插入。\n",
    "\n",
    "插入集合{1,3,4}：\n",
    "\n",
    "- 1 到左子女。\n",
    "- 3 到左子女。\n",
    "- 4 到右子女，由于叶节点深度小于 3 且无其他项集，将其插入。\n",
    "\n",
    "插入集合{2,3,4}：\n",
    "\n",
    "- 2 到右子女。\n",
    "- 3 到左子女。\n",
    "- 4 到右子女，此时叶节点已有 2 个项集，叶节点深度小于 3，将该叶节点转变为内部节点，创建新的叶节点，根据散列值将已有项集和新项集分布到新的叶节点。\n",
    "\n",
    "插入集合{2,4,5}：\n",
    "\n",
    "- 2 到右子女。\n",
    "- 4 到右子女。\n",
    "- 5 为奇数，散列到左子女，由于叶节点深度小于 3 且无其他项集，将其插入。\n",
    "\n",
    "插入集合{3,4,6}：\n",
    "\n",
    "- 3 到左子女。\n",
    "- 4 到右子女。\n",
    "- 6 到右子女，由于叶节点深度小于 3 且无其他项集，将其插入。\n",
    "\n",
    "插入集合{4,5,6}：\n",
    "\n",
    "- 4 到右子女。\n",
    "- 5 到左子女。\n",
    "- 6 到右子女，由于叶节点深度小于 3 且无其他项集，将其插入。\n",
    "\n",
    "最终得到的 Hash 树如下：\n",
    "\n",
    "根节点\n",
    "|-- 左子树\n",
    "|-- 叶节点：{1,2,3}，{1,3,4}\n",
    "|-- 右子树\n",
    "|-- 内部节点\n",
    "|-- 左子树：叶节点{2,4,5}\n",
    "|-- 右子树：叶节点{1,2,6}，{2,3,4}\n",
    "|-- 叶节点：{3,4,6}，{4,5,6}\n",
    "\n",
    "（b）\n",
    "叶节点有 4 个，分别是：{1,2,3}，{1,3,4}，{2,4,5}，{3,4,6}。\n",
    "内部节点有 1 个，即上述右子树中的内部节点。\n",
    "\n",
    "（c）\n",
    "对于事务{1,2,3,5,6}，首先散列各项：\n",
    "\n",
    "- 1 到左子女。\n",
    "- 2 到右子女。\n",
    "- 3 到左子女。\n",
    "- 5 到左子女。\n",
    "- 6 到右子女。\n",
    "\n",
    "需要检查的叶节点为根节点的左子树中的叶节点{1,2,3}，{1,3,4}和右子树中内部节点的右子树中的叶节点{1,2,6}，{2,3,4}。\n",
    "\n",
    "该事务包含的候选 3 - 项集为{1,2,3}。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "4e4fea40-ec02-41e9-aec9-4f4f4d4e0327",
   "metadata": {},
   "source": [
    "### 12.传统的关联规则挖掘方法使用支持度和置信度度量来剪裁没有兴趣的规则。\n",
    "\n",
    "(a) 使用表 6-25中的事务数据，绘制出下面每个规则对应的相依表。\n",
    "\n",
    "**规则:** \n",
    "-  $\\{b\\} \\rightarrow \\{c\\}$ \n",
    "-  $\\{a\\} \\rightarrow \\{d\\}$ \n",
    "-  $\\{b\\} \\rightarrow \\{d\\}$ \n",
    "-  $\\{e\\} \\rightarrow \\{c\\}$ \n",
    "-  $\\{c\\} \\rightarrow \\{a\\}$ \n",
    "\n",
    "**表 6-25 购物篮事务示例**\n",
    "\n",
    "| 事务ID | 购买项          |\n",
    "|--------|-----------------|\n",
    "| 1      |  $\\{a, b, d, e\\}$  |\n",
    "| 2      |  $\\{b, c, d\\}$    |\n",
    "| 3      |  $\\{a, b, d, e\\}$  |\n",
    "| 4      |  $\\{a, c, d, e\\}$  |\n",
    "| 5      |  $\\{b, c, d, e\\}$  |\n",
    "| 6      |  $\\{b, d, e\\}$    |\n",
    "| 7      |  $\\{c, d\\}$       |\n",
    "| 8      |  $\\{a, b, c\\}$    |\n",
    "| 9      |  $\\{a, d, e\\}$    |\n",
    "| 10     |  $\\{b, d\\}$       |\n",
    "\n",
    "(b) 利用(a)的相依表，按照下面的度量计算并依递减序确定规则的秩。\n",
    "\n",
    "i. **支持度**。\n",
    "\n",
    "ii. **置信度**。\n",
    "\n",
    "iii. **Interest**  $(X \\rightarrow Y) = \\frac{P(X, Y)}{P(X)} P(Y)$ 。\n",
    "\n",
    "\n",
    " $$ \\text{iv.} \\quad IS(X \\rightarrow Y) = \\frac{P(X, Y)}{\\sqrt{P(X) P(Y)}} $$ \n",
    "\n",
    "v. **Klosgen**  $(X \\rightarrow Y) = \\sqrt{P(X, Y)} \\times (P(Y \\mid X) - P(Y))$ ，其中  $P(Y \\mid X) = \\frac{P(X, Y)}{P(X)}$ 。\n",
    "\n",
    "vi. **几率**  $(X \\rightarrow Y) = \\frac{P(X, Y) P(\\bar{X}, \\bar{Y})}{P(X, \\bar{Y}) P(\\bar{X}, Y)}$ 。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "f6924462-2a2f-4f8e-93ab-07d15cecdb5b",
   "metadata": {},
   "source": [
    "答：\n",
    "(a)\n",
    "**规则  $\\{ b\\} \\rightarrow \\{ c\\}$  的相依表：**\n",
    "\n",
    "|       |  $c$  |  $\\neg c$  | 总计 |\n",
    "|-------|-------|------------|------|\n",
    "|  $b$  | 3     | 4          | 7    |\n",
    "|  $\\neg b$  | 2 | 3          | 5    |\n",
    "| 总计  | 5     | 7          | 12   |\n",
    "\n",
    "**规则  $\\{ a\\} \\rightarrow \\{ d\\}$  的相依表：**\n",
    "\n",
    "|       |  $d$  |  $\\neg d$  | 总计 |\n",
    "|-------|-------|------------|------|\n",
    "|  $a$  | 5     | 1          | 6    |\n",
    "|  $\\neg a$  | 2 | 4          | 6    |\n",
    "| 总计  | 7     | 5          | 12   |\n",
    "\n",
    "**规则  $\\{ b\\} \\rightarrow \\{ d\\}$  的相依表：**\n",
    "\n",
    "|       |  $d$  |  $\\neg d$  | 总计 |\n",
    "|-------|-------|------------|------|\n",
    "|  $b$  | 6     | 1          | 7    |\n",
    "|  $\\neg b$  | 1 | 4          | 5    |\n",
    "| 总计  | 7     | 5          | 12   |\n",
    "\n",
    "**规则  $\\{ e\\} \\rightarrow \\{ c\\} \\rightarrow \\{ a\\}$  的相依表：**\n",
    "\n",
    "|       |  $a$  |  $\\neg a$  | 总计 |\n",
    "|-------|-------|------------|------|\n",
    "|  $c$  | 3     | 2          | 5    |\n",
    "|  $\\neg c$  | 2 | 5          | 7    |\n",
    "| 总计  | 5     | 7          | 12   |\n",
    "\n",
    "**理由：** 通过对给定的事务数据进行统计，确定每个规则中前项和后项出现的次数，从而构建相依表。\n",
    "\n",
    "(b)\n",
    "i. 支持度：\n",
    "- 规则  $\\{ b\\} \\rightarrow \\{ c\\}$  的支持度为： $\\frac{3}{12} = 0.25$ \n",
    "- 规则  $\\{ a\\} \\rightarrow \\{ d\\}$  的支持度为： $\\frac{5}{12} \\approx 0.417$ \n",
    "- 规则  $\\{ b\\} \\rightarrow \\{ d\\}$  的支持度为： $\\frac{6}{12} = 0.5$ \n",
    "- 规则  $\\{ e\\} \\rightarrow \\{ c\\} \\rightarrow \\{ a\\}$  的支持度为： $\\frac{0}{12} = 0$ \n",
    "\n",
    "支持度递减序排列为： $\\{ b\\} \\rightarrow \\{ d\\} > \\{ a\\} \\rightarrow \\{ d\\} > \\{ b\\} \\rightarrow \\{ c\\} > \\{ e\\} \\rightarrow \\{ c\\} \\rightarrow \\{ a\\}$ \n",
    "\n",
    "ii. 置信度：\n",
    "- 规则  $\\{ b\\} \\rightarrow \\{ c\\}$  的置信度为： $\\frac{3}{7} \\approx 0.429$ \n",
    "- 规则  $\\{ a\\} \\rightarrow \\{ d\\}$  的置信度为： $\\frac{5}{6} \\approx 0.833$ \n",
    "- 规则  $\\{ b\\} \\rightarrow \\{ d\\}$  的置信度为： $\\frac{6}{7} \\approx 0.857$ \n",
    "- 规则  $\\{ e\\} \\"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "adcc4aa2-84b0-46dc-87bc-d225f2eb1c40",
   "metadata": {},
   "source": [
    "### 18. 表 6-26 显示了二元变量 A 和 B 在控制变量 C 的不同值上的 2×2×2 的相依表。\n",
    "\n",
    "**表 6-26 一个相依表**\n",
    "\n",
    "| C\\B\\A | 1 | 0 |\n",
    "|-------|---|---|\n",
    "| C=0   |   |   |\n",
    "| B=1   | 0 | 15|\n",
    "| B=0   | 15| 30|\n",
    "| C=1   |   |   |\n",
    "| B=1   | 5 | 0 |\n",
    "| B=0   | 0 | 15|\n",
    "\n",
    "(a) 分别计算当 C = 0, C = 1 和 C = 0 或 1 时 A 和 B 的 φ 系数。\n",
    "\n",
    "注意:  $ \\phi(A, B) = \\frac{P(A, B) - P(A)P(B)}{\\sqrt{P(A)P(B)(1 - P(A))(1 - P(B))}} $ \n",
    "\n",
    "(b) 由上面的结果可以得出什么结论？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "3c4463a7-a032-469c-a857-576018a34e43",
   "metadata": {},
   "source": [
    "答：\n",
    "1. 当 C = 0 时计算 A 和 B 的 φ 系数\n",
    "   - 计算  $ P(A) $ ：在 C = 0 时，A = 1 的总数为 15 + 5 = 20，总样本数为 15+15 + 30+5 = 65，所以  $ P(A) = \\frac{20}{65} = \\frac{4}{13} $ 。\n",
    "   - 计算  $ P(B) $ ：B = 1 的总数为 15+30 = 45，所以  $ P(B) = \\frac{45}{65} = \\frac{9}{13} $ 。\n",
    "   - 计算  $ P(A,B) $ ：A = 1 且 B = 1 的数量为 15，所以  $ P(A,B) = \\frac{15}{65} = \\frac{3}{13} $ 。\n",
    "   - 代入 φ 系数公式： $ \\varphi = \\frac{\\frac{3}{13} - \\frac{4}{13} \\times \\frac{9}{13}}{\\sqrt{\\frac{4}{13} \\times \\frac{9}{13} (1 - \\frac{4}{13})(1 - \\frac{9}{13})}} $ 。\n",
    "   - 先计算分子： $ \\frac{3}{13} - \\frac{4}{13} \\times \\frac{9}{13} = \\frac{3 \\times 13 - 4 \\times 9}{13 \\times 13} = \\frac{39 - 36}{169} = \\frac{3}{169} $ 。\n",
    "   - 再计算分母：\n",
    "   -  $ \\frac{4}{13} \\times \\frac{9}{13} = \\frac{36}{169} $ 。\n",
    "   -  $ 1 - \\frac{4}{13} = \\frac{9}{13} $ ， $ 1 - \\frac{9}{13} = \\frac{4}{13} $ 。\n",
    "   -  $ \\sqrt{\\frac{4}{13} \\times \\frac{9}{13} (1 - \\frac{4}{13})(1 - \\frac{9}{13})} = \\sqrt{\\frac{36}{169} \\times \\frac{9}{13} \\times \\frac{4}{13}} = \\sqrt{\\frac{36 \\times 9 \\times 4}{169 \\times 13 \\times 13}} = \\frac{36}{169} $ 。\n",
    "   - 所以  $ \\varphi = \\frac{\\frac{3}{169}}{\\frac{36}{169}} = \\frac{3}{36} = \\frac{1}{12} $ 。\n",
    "\n",
    "2. 当 C = 1 时计算 A 和 B 的 φ 系数\n",
    "   - 计算  $ P(A) $ ：在 C = 1 时，A = 1 的总数为 15，总样本数为 15+0+0+0 = 15，所以  $ P(A) = \\frac{15}{15} = 1 $ 。\n",
    "   - 计算  $ P(B) $ ：B = 1 的总数为 15，所以  $ P(B) = \\frac{15}{15} = 1 $ 。\n",
    "   - 计算  $ P(A,B) $ ：A = 1 且 B = 1 的数量为 15，所以  $ P(A,B) = \\frac{15}{15} = 1 $ 。\n",
    "   - 代入 φ 系数公式： $ \\varphi = \\frac{1 - 1 \\times 1}{\\sqrt{1 \\times 1 (1 - 1)(1 - 1)}} $ ，由于分母为 0，这种情况下 φ 系数无定义。\n",
    "\n",
    "3. 当 C = 0 或 1 时计算 A 和 B 的 φ 系数\n",
    "   - 计算  $ P(A) $ ：总样本数为 65+15=80，A = 1 的总数为 20+15=35，所以  $ P(A) = \\frac{35}{80} = \\frac{7}{16} $ 。\n",
    "   - 计算  $ P(B) $ ：B = 1 的总数为 45+15=60，所以  $ P(B) = \\frac{60}{80} = \\frac{3}{4} $ 。\n",
    "   - 计算  $ P(A,B) $ ：A = 1 且 B = 1 的数量为 15+15=30，所以  $ P(A,B) = \\frac{30}{80} = \\frac{3}{8} $ 。\n",
    "   - 代入 φ 系数公式： $ \\varphi = \\frac{\\frac{3}{8} - \\frac{7}{16} \\times \\frac{3}{4}}{\\sqrt{\\frac{7}{16} \\times \\frac{3}{4} (1 - \\frac{7}{16})(1 - \\frac{3}{4})}} $ 。\n",
    "   - 先计算分子： $ \\frac{3}{8} - \\frac{7}{16} \\times \\frac{3}{4} = \\frac{3 \\times 8 - 7 \\times 3}{8 \\times 4} = \\frac{24 - 21}{32} = \\frac{3}{32} $ 。\n",
    "   - 再计算分母：\n",
    "   -  $ \\frac{7}{16} \\times \\frac{3}{4} = \\frac{21}{64} $ 。\n",
    "   -  $ 1 - \\frac{7}{16} = \\frac{9}{16} $ ， $ 1 - \\frac{3}{4} = \\frac{1}{4} $ 。\n",
    "   -  $ \\sqrt{\\frac{7}{16} \\times \\frac{3}{4} (1 - \\frac{7}{16})(1 - \\frac{3}{4})} = \\sqrt{\\frac{21}{64} \\times \\frac{9}{16} \\times \\frac{1}{4}} = \\frac{3 \\sqrt{21}}{64} $ 。\n",
    "   - 所以  $ \\varphi = \\frac{\\frac{3}{32}}{\\frac{3 \\sqrt{21}}{64}} = \\frac{3 \\times 64}{32 \\times 3 \\sqrt{21}} = \\frac{2}{\\sqrt{21}} $ 。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "faf531ed-956c-4290-a73c-5ee2513a153a",
   "metadata": {},
   "source": [
    "### 20.考虑表 6-19 和表 6-20中显示的购买高清晰度电视和购买健身器的顾客之间的联系。  \n",
    "(a)计算两个表的几率。  \n",
    "(b)计算两个表的φ系数。  \n",
    "(c)计算两个表的兴趣因子。  \n",
    "对于上述每一个度量，描述当汇总数据取代分层数据后，关联方向的变化。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "b26f2b61-3713-4719-9dd2-c4a759fe35b4",
   "metadata": {},
   "source": [
    "1. 计算两个表的几率\n",
    "   - 公式：\n",
    " $$ \\text{Odds} = \\frac{P(\\text{事件发生})}{P(\\text{事件不发生})} $$ \n",
    "   - 表6-19\n",
    "     - 买HDTV且买健身器的几率：\n",
    " $$ \\text{Odds}_{1} = \\frac{99}{54} = 1.833 $$ \n",
    "     - 不买HDTV但买健身器的几率：\n",
    " $$ \\text{Odds}_{2} = \\frac{81}{66} = 1.227 $$ \n",
    "     - 买HDTV但不买健身器的几率：\n",
    " $$ \\text{Odds}_{3} = \\frac{54}{99} = 0.545 $$ \n",
    "     - 不买HDTV且不买健身器的几率：\n",
    " $$ \\text{Odds}_{4} = \\frac{66}{81} = 0.815 $$ \n",
    "   - 表6-20\n",
    "     - 大学生组\n",
    "       - 买HDTV且买健身器的几率：\n",
    " $$ \\text{Odds}_{1} = \\frac{1}{4} = 0.25 $$ \n",
    "       - 不买HDTV但买健身器的几率：\n",
    " $$ \\text{Odds}_{2} = \\frac{9}{30} = 0.3 $$ \n",
    "       - 买HDTV但不买健身器的几率：\n",
    " $$ \\text{Odds}_{3} = \\frac{4}{1} = 4 $$ \n",
    "       - 不买HDTV且不买健身器的几率：\n",
    " $$ \\text{Odds}_{4} = \\frac{30}{9} = 3.333 $$ \n",
    "     - 在职人员组\n",
    "       - 买HDTV且买健身器的几率：\n",
    " $$ \\text{Odds}_{1} = \\frac{98}{50} = 1.96 $$ \n",
    "       - 不买HDTV但买健身器的几率：\n",
    " $$ \\text{Odds}_{2} = \\frac{72}{36} = 2 $$ \n",
    "       - 买HDTV但不买健身器的几率：\n",
    " $$ \\text{Odds}_{3} = \\frac{50}{98} = 0.51 $$ \n",
    "       - 不买HDTV且不买健身器的几率：\n",
    " $$ \\text{Odds}_{4} = \\frac{36}{72} = 0.5 $$ \n",
    "\n",
    "2. 计算两个表的φ系数\n",
    "- 公式：\n",
    " $$ \\phi = \\frac{ad - bc}{\\sqrt{(a + b)(c + d)(a + c)(b + d)}} $$ \n",
    "- 表6-19\n",
    "     -  $ a = 99, b = 54, c = 81, d = 66 $ \n",
    "     - \n",
    " $$ \\phi = \\frac{(99 \\times 66) - (54 \\times 81)}{\\sqrt{(99 + 54)(81 + 66)(99 + 81)(54 + 66)}} = \\frac{6534 - 4374}{\\sqrt{(153)(147)(180)(120)}} = \\frac{2160}{\\sqrt{47237400}} \\approx 0.314 $$ \n",
    " - 表6-20\n",
    " - 大学生组\n",
    " -  $ a = 1, b = 4, c = 9, d = 30 $ \n",
    " - \n",
    " $$ \\phi = \\frac{(1 \\times 30) - (4 \\times 9)}{\\sqrt{(1 + 4)(9 + 30)(1 + 9)(4 + 30)}} = \\frac{30 - 36}{\\sqrt{(5)(39)(10)(34)}} = \\frac{-6}{\\sqrt{66300}} \\approx -0.023 $$ \n",
    " - 在职人员组\n",
    "  -  $ a = 98, b = 50, c = 72, d = 36 $\n",
    "  -   - \n",
    " $$ \\phi = \\frac{(98 \\times 36) - (50 \\times 72)}{\\sqrt{(98 + 50)(72 + 36)(98 + 72)(50 + 36)}} = \\frac{3528 - 3600}{\\sqrt{(148)(108)(170)(86)}} = \\frac{-72}{\\sqrt{23827296}} \\approx -0.015 $$ \n",
    "\n",
    "3. 计算两个表的兴趣因子\n",
    "   - 公式：\n",
    " $$ \\text{Interest Factor} = \\frac{ad}{bc} $$ \n",
    "   - 表6-19\n",
    "     -  $ a = 99, b = 54, c = 81, d = 66 $ \n",
    "     - \n",
    " $$ \\text{Interest Factor} = \\frac{99 \\times 66}{54 \\times 81} = \\frac{6534}{4374} \\approx 1.494 $$ \n",
    "   - 表6-20\n",
    "     - 大学生组\n",
    "       -  $ a = 1, b = 4, c = 9, d = 30 $ \n",
    "       - \n",
    " $$ \\text{Interest Factor} = \\frac{1 \\times 30}{4 \\times 9} = \\frac{30}{36} \\approx 0.833 $$ \n",
    "     - 在职人员组\n",
    "       -  $ a = 98, b = 50, c = 72, d = 36 $ \n",
    "       - \n",
    " $$ \\text{Interest Factor} = \\frac{98 \\times 36}{50 \\times 72} = \\frac{3528}{3600} \\approx 0.98 $$ \n",
    "\n",
    "4. 关联方向变化\n",
    "   - 在分层数据（表6-20）中，大学生组和在职人员组内买HDTV和买健身器存在负相关。\n",
    "   - 汇总数据（表6-19）后变为正相关，汇总数据会掩盖分层数据中的负相关关系。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "baa60820-95c8-400a-ad51-0f4f6ca59eb3",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.12.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
